搜索资源列表
invIndexDoclet
- This code sample shows how to write a simple Javadoc 1.2 Doclet. Used with Javadoc, it can generate a Unix-style inverted index for a set of Java classes, with links to real Java API documentation. Includes directions and source code. This doclet
src
- 采用倒排索引做的相似搜索的源码 。 技术点:倒排索引、归一化、k-临近相似计算-Inverted index used to do similar searches for source
RUSE2-061251140
- 一个简单的搜索引擎,采用倒排表,对文件进行索引,很据内容进行匹配-A simple search engine, the use of inverted tables, index files, it is according to match the content
lucene_indexer
- 网页的除噪和预处理,利用lucene建立一个倒排索引,另外利用了HTMLparser对网页的解析进行了优化除噪。-In addition to web pages and pre-noise, using lucene an inverted index, another advantage of HTMLparser analysis on pages optimized denoising.
IR
- 索引词的选择 1、 切词及词频统计:利用已选择的分词软件对文档进行切词处理,并进行词频统计,形成DocIndex文件,结构为:文档号、频率、词。注意保留中间结果,建立合理的数据结构来存储。 2、 分配词权重: 采用词频标准化(tfi = tfi/Max(tf))和tf*idf两种方式分配词的权重。由DocIndex文件生成DocIndex(tf) 和DocIndex(tf*idf)文件。注意阈值的确定,词的取舍。 3、 形成倒置文档:将DocIndex(tf) 和DocInde
search_engine
- 搜索引擎课程的几次作业,第一次作业实现分词算法,使用正向最大匹配原则。第二次作业实现倒排索引。第三次作业实现正排索引。第四次作业实现索引功能。实现的比较简单,但均可正常运行。-Several job search engine programs, the first job segmentation algorithm, using forward maximum matching principle. The second job inverted index. The third job t
MapTest
- 倒排索引,此程序,运用ICTClas分词工具实现的中文分词,并建立倒排索引输出到指定文件。-Inverted index, this procedure, use ICTClas segmentation tool to achieve the Chinese word segmentation and indexing inverted output to the specified file.
Lucene2.0_Test
- Lucene 建立倒排索引的入门例子,容易理解lucene建立索引和查询的过程。-The Lucene establish introductory example inverted index, easy to understand lucene indexing and query process.
Lucene4
- Lucene4的使用方法,可以进行倒排索引,对文本检索有很大帮助-Lucene4 to use, can be inverted index for text retrieval great help
code
- 信息检索作业-分布式构建倒排索引 Hadoop Mapreduce程序-Information retri - distributed inverted index Hadoop Mapreduce
invertedIndex
- 利用hadoop中的map/reduce框架实现对文件的倒排索引,在搜索引擎中对网页的分类很多采用这种方法-Using map/reduce in the Hadoop framework to achieve the inverted file index, in the search engine on the web page of a lot of classification using this method